stableavatar动漫

你能永远陪我聊天吗？复旦&微软提出StableAvatar:首个端到端

如今随着扩散模型的兴起极大，涌现出大量基于音频驱动的数字人生成工作。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。

如今随着扩散模型的兴起极大，涌现出大量基于音频驱动的数字人生成工作。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。

扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。然而，现有方法仅能生成时长不足 1